Telegram Group & Telegram Channel
🚀 Deep Seek представили NSA – инновационную Sparse Attention технологию для ультрабыстрого обучения и инференса с длинным контекстом!

Основные детали:
• Динамическая иерархическая разреженност
ь – модель умело распределяет внимание, выделяя ключевые моменты в длинных последовательностях.
• Грубое сжатие токенов – снижает объём обрабатываемых данных без потери важной информации.
• Точный выбор токенов – сохраняет критически значимые детали для высокой точности.

Благодаря оптимизации под современное железо NSA не только ускоряет инференс, но и снижает затраты на предобучение, при этом демонстрируя результаты, сравнимые или превосходящие Full Attention модели на общих тестах, задачах с длинным контекстом и инструктивном рассуждении.

Подробности и технические детали в статье: https://arxiv.org/abs/2502.11089

@machinelearning_interview



tg-me.com/machinelearning_interview/1566
Create:
Last Update:

🚀 Deep Seek представили NSA – инновационную Sparse Attention технологию для ультрабыстрого обучения и инференса с длинным контекстом!

Основные детали:
• Динамическая иерархическая разреженност
ь – модель умело распределяет внимание, выделяя ключевые моменты в длинных последовательностях.
• Грубое сжатие токенов – снижает объём обрабатываемых данных без потери важной информации.
• Точный выбор токенов – сохраняет критически значимые детали для высокой точности.

Благодаря оптимизации под современное железо NSA не только ускоряет инференс, но и снижает затраты на предобучение, при этом демонстрируя результаты, сравнимые или превосходящие Full Attention модели на общих тестах, задачах с длинным контекстом и инструктивном рассуждении.

Подробности и технические детали в статье: https://arxiv.org/abs/2502.11089

@machinelearning_interview

BY Machine learning Interview





Share with your friend now:
tg-me.com/machinelearning_interview/1566

View MORE
Open in Telegram


Machine learning Interview Telegram | DID YOU KNOW?

Date: |

To pay the bills, Mr. Durov is issuing investors $1 billion to $1.5 billion of company debt, with the promise of discounted equity if the company eventually goes public, the people briefed on the plans said. He has also announced plans to start selling ads in public Telegram channels as soon as later this year, as well as offering other premium services for businesses and users.

At a time when the Indian stock market is peaking and has rallied immensely compared to global markets, there are companies that have not performed in the last 10 years. These are definitely a minor portion of the market considering there are hundreds of stocks that have turned multibagger since 2020. What went wrong with these stocks? Reasons vary from corporate governance, sectoral weakness, company specific and so on. But the more important question is, are these stocks worth buying?

Machine learning Interview from fr


Telegram Machine learning Interview
FROM USA